16 research outputs found

    AnCora-Nom: un léxico de nominalizaciones deverbales del español

    Get PDF
    En este artículo se describe un nuevo recurso: AnCora-Nom, un léxico de nominalizaciones deverbales del español. Actualmente, contiene 1.655 entradas léxicas y 3.094 sentidos, donde cada sentido tiene asociado el tipo denotativo y la estructura argumental con los papeles temáticos correspondientes. Este léxico se ha extraído automáticamente a partir de la información anotada en el corpus AnCora-Es. AnCora-Nom se derivó teniendo en cuenta no sólo la información estrictamente relacionada con las nominalizaciones deverbales sino también con información morfológica y sintáctico-semántica previamente anotada en el corpus.This paper describes a new lexical resource: Ancora-Nom, a Spanish lexicon of deverbal nominalizations. At present, it contains 1,655 lexical entries and 3,094 senses. Each sense has a denotation type associated, and the mapping of nominal complements with arguments and the corresponding theta roles is also annotated. A particular interest of this lexicon is that it has been automatically extracted from the annotated AnCora-Es corpus. AnCora-Nom was derived taking into account the information directly related to nominalizations, but also the morphological and syntactic-semantic information annotated in the corpus.This research has received support from the projects Text-Knowledge 2.0 (TIN2009-13391-C04-04) and AnCora-Net (FFI2009-06497-E/FILO) from the Spanish Ministry of Science and Innovation, and a FPU grant (AP2007-01028) from the Spanish Ministry of Education

    AnCora-Nom: A Spanish lexicon of deverbal nominalizations

    Get PDF
    This paper describes a new lexical resource: Ancora-Nom, a Spanish lexicon of deverbal nominalizations. At present, it contains 1,655 lexical entries and 3,094 senses. Each sense has a denotation type associated, and the mapping of nominal complements with arguments and the corresponding theta roles is also annotated. A particular interest of this lexicon is that it has been automatically extracted from the annotated AnCora-Es corpus. AnCora-Nom was derived taking into account the information directly related to nominalizations, but also the morphological and syntactic-semantic information annotated in the corpus, such as WordNet synsets, the specifier type of the nominalization, and its morphological number (singular or plural)

    Empirical methods for the study of denotation in nominalizations in Spanish

    Get PDF
    This article deals with deverbal nominalizations in Spanish; concretely, we focus on the denotative distinction between event and result nominalizations. The goals of this work is twofold: first, to detect the most relevant features for this denotative distinction; and, second, to build an automatic classification system of deverbal nominalizations according to their denotation. We have based our study on theoretical hypotheses dealing with this semantic distinction and we have analyzed them empirically by means of Machine Learning techniques which are the basis of the ADN-Classifier. This is the first tool that aims to automatically classify deverbal nominalizations in event, result, or underspecified denotation types in Spanish. The ADN-Classifier has helped us to quantitatively evaluate the validity of our claims regarding deverbal nominalizations. We set up a series of experiments in order to test the ADN-Classifier with different models and in different realistic scenarios depending on the knowledge resources and natural language processors available. The ADN-Classifier achieved good results (87.20% accuracy)

    Iarg-AnCora: Spanish corpus annotated with implicit arguments

    Get PDF
    This article presents the Spanish Iarg-AnCora corpus (400 k-words, 13,883 sentences) annotated with the implicit arguments of deverbal nominalizations (18,397 occurrences). We describe the methodology used to create it, focusing on the annotation scheme and criteria adopted. The corpus was manually annotated and an interannotator agreement test was conducted (81 % observed agreement) in order to ensure the reliability of the final resource. The annotation of implicit arguments results in an important gain in argument and thematic role coverage (128 % on average). It is the first corpus annotated with implicit arguments for the Spanish language with a wide coverage that is freely available. This corpus can subsequently be used by machine learning-based semantic role labeling systems, and for the linguistic analysis of implicit arguments grounded on real data. Semantic analyzers are essential components of current language technology applications, which need to obtain a deeper understanding of the text in order to make inferences at the highest level to obtain qualitative improvements in the results

    IARG-AnCora: Anotación de los corpus AnCora con argumentos implícitos

    Get PDF
    Iarg-AnCora aims to annotate the implicit arguments of deverbal nominalizations in AnCora corpus. This corpus will be the basis for systems of automatic semantic role labeling based on machine learning techniques. Semantic analyzers are essential components in the current applications of language technologies, in which it is important to obtain a deeper understanding of the text to make inferences on the highest level in order to obtain qualitative improvements in the results

    Deverbal nominalizations: denotation and argument structure

    Get PDF
    Tesis doctoral en Lingüística Computacional realizada por Aina Peris en la Universitat de Barcelona (UB) bajo la dirección de la Dra. Mariona Taulé (UB) y el Dr. Horacio Rodríguez (Universitat Politècnica de Catalunya). El acto de defensa de la tesis tuvo lugar el viernes 11 de mayo de 2012 ante el tribunal formado por los doctores Piek Vossen (Vrije Universiteit of Amsterdam), Lidia Moreno (Universitat Politècnica de Valencia) y Mª Antònia Martí (UB). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad con mención europea.Ph.D. Thesis in Computational Linguistics, written by Aina Peris at the University of Barcelona (UB), under the supervision of Dr. Mariona Taulé (UB) and Dr. Horacio Rodríguez (Technical University of Catalonia). The author was examined on Friday, 11th of May 2011, by a committee formed by the doctors Piek Vossen (Vrije Universiteit of Amsterdam), Lidia Moreno (Technical University of Valencia) and Mª Antònia Martí (UB). The grade obtained was Excellent Cum Laude unanimously (with European mention)

    Nominalizaciones deverbales: Denotación y estructura argumental

    Get PDF
    [spa] Las nominalizaciones deverbales del español son construcciones lingüísticas que se caracterizan por presentar propiedades propias de los sustantivos pero al mismo tiempo poder heredar la estructura argumental de los verbos de los que derivan. Esta dualidad les confiere un notable interés lingüístico porque, por una parte, pueden denotar tanto un estado o el resultado de la denotada por el verbo base correspondiente, como pueden también denotar la misma acción o evento que expresa el verbo base, y por tanto, ser paráfrasis de cláusulas oracionales. Por otra parte, son sustantivos que tienen capacidad argumental, es decir, seleccionan argumentos y, en este sentido, es relevante observar los patrones de realización sintáctico-semántica de los argumentos de las nominalizaciones, ya que suponen una manera alternativa de expresar el significado contenido en una oración. Además del intrínseco valor lingüístico que tiene el estudio de estas construcciones, también desde un punto de vista del Procesamiento del Lenguaje Natural resulta interesante disponer de herramientas y recursos que traten y representen las nominalizaciones deverbales del español, tanto en lo que se refiere a la denotación como a la estructura argumental. Tareas como la resolución de la correferencia o la detección de paráfrasis pueden beneficiarse de una herramienta o un recurso que trate el tipo denotativo de las nominalizaciones, y aplicaciones de extracción de información o de búsqueda de respuestas, así como los sistemas de etiquetado semántico, pueden aprovechar herramientas y recursos que representen la estructura argumental de las nominalizaciones deverbales. Esta tesis pretende conjugar el estudio de las nominalizaciones deverbales tanto desde un punto de vista lingüístico como desde la perspectiva del Procesamiento del Lenguaje Natural. La tesis está dividida en cuatro partes que responden a esa voluntad. La primera parte de este trabajo nos pone en antecedentes acerca de las nominalizaciones deverbales. Se define el objeto de estudio, se presenta la metodología utilizada y se ofrece una revisión bibliográfica amplia que incluye tanto trabajos fundamentalmente teóricos como trabajos esencialmente computacionales sobre las nominalizaciones deverbales. La segunda parte se centra en la estructura argumental de las nominalizaciones deverbales. En primer lugar, se presenta el estudio lingüístico basado en corpus sobre la realización sintáctico-semántica de los argumentos. A partir de este estudio, se extraen una serie de hipótesis lingüísticas sobre qué constituyentes son argumentos de las nominalizaciones y cuáles no, y qué tipo de argumento verbal se asocia a constituyentes específicos en el dominio nominal. En segundo lugar, estas hipótesis lingüísticas están en la base del paquete de reglas heurísticas (RHN) creado para anotar automáticamente la estructura argumental de las nominalizaciones deverbales en el corpus AnCora-Es. La evaluación de estas reglas heurísticas aporta nuevas observaciones sobre la realización de la estructura argumental de las nominalizaciones deverbales y confirma parte de las hipótesis iniciales. La tercera parte trata sobre la denotación de las nominalizaciones deverbales. Primero, se presenta el estudio empírico basado en corpus realizado sobre la distinción entre evento y resultado. De este estudio empírico se obtienen una serie de criterios lingüísticos para establecer dicha distinción, y además, se establece una nueva clase denotativa subespecificada para aquellos casos en los que el contexto oracional es insuficiente. Los criterios lingüísticos resultan de la determinación de qué criterios propuestos en la bibliografía son relevantes para el español, del análisis lingüístico realizado, y de la observación de las reglas simbólicas generadas en los experimentos computacionales para evaluar los criterios anteriores. Estos experimentos están en la base del clasificador ADN, un sistema automático cuyo objetivo es clasificar las nominalizaciones deverbales según su denotación. Este clasificador se desarrolló como herramienta necesaria para la anotación de la denotación de las nominalizaciones deverbales del corpus AnCora-Es y, finalmente, se ha convertido en el primer clasificador de denotaciones del español capaz de trabajar en diferentes escenarios. En la cuarta parte se describen los dos recursos generados en esta tesis: el enriquecimiento del corpus AnCora-Es con la anotación de la denotación y la estructura argumental de las nominalizaciones deverbales, y la inducción del léxico AnCora-Nom a partir de esta anotación. En relación a AnCora-Es, se detallan los procesos de validación manual de la estructura argumental y la denotación, concretamente, los criterios específicos de validación y las pruebas de acuerdo entre anotadores. Respecto a AnCora-Nom, se especifica la generación automática del léxico a partir del corpus validado, evidenciando la posibilidad de obtener dos recursos con un único proceso de validación manual, el del corpus. Finalmente, en las conclusiones se recogen las aportaciones de esta tesis a la comunidad científica. Estas aportaciones consisten básicamente en herramientas y recursos computacionales para el tratamiento y representación de las nominalizaciones deverbales del español, y en el análisis lingüístico que caracterizan las nominalizaciones deverbales tanto con respecto a la denotación como a la estructura argumental, conjugando las dos perspectivas de estudio de este trabajo.[eng] Some Spanish deverbal nominalizations can denote both the state or the result of the action expressed by the corresponding base verb as well as the same action or event expressed by the base verb. On the other hand, these nominalizations are nouns with argument taking capacity, that is, they select arguments. This thesis aims to study deverbal nominalizations both from Linguistics and NLP approaches. The thesis is divided into four parts, which reflect these two perspectives. The first part defines the object of study, presents the methodology used and provides an extensive review of the literature, including both theoretical and computational works on deverbal nominalizations. The second part focuses on the argument structure of deverbal nominalizations. We present our corpus-based linguistic study of the syntactic-semantic realization of arguments. From this study, we extracted a series of hypotheses about which constituents are arguments of nominalizations and which are not, and what kind of verbal argument is associated with specific constituents in the nominal domain. These assumptions underlie the RHN package of heuristics rules created to automatically annotate the argument structure of deverbal nominalizations in the Ancora-Es corpus. The evaluation of these heuristics provides new observations on the realization of the argument structure of deverbal nominalizations and confirms part of our initial hypotheses. The third part deals with the denotation of deverbal nominalizations. First, we present our empirical corpus-based study of the distinction between event and result nominalizations. From this empirical study a series of linguistic criteria for establishing that distinction was obtained. We also established a new denotative class, underspecified, for those cases in which the sentence context is not enough for disambiguation. The linguistic criteria result from determining which criteria proposed in the literature are relevant for Spanish, from the linguistic analysis performed, and from the observance of the symbolic rules generated in the computational experiments to evaluate the above criteria. These experiments are in the base of the ADN-Classifier, an automatic system for the classification of deverbal nominalizations according to their denotation. The fourth part describes the two resources generated in this thesis: the enrichment of the Ancora-Es corpus by annotating the denotation and argument structure of deverbal nominalizations, and the extraction from this annotation of the Ancora-Nom lexicon. Finally, the contributions of this thesis to the scientific community are presented in the conclusions. These contributions consist of, on the one hand, computational tools and resources for the treatment and representation of Spanish deverbal nominalizations. And, on the other hand, the linguistic analysis carried out to characterize deverbal nominalizations with respect to both their denotation and their argument structure, combining the two approaches of this work

    AnCora-Nom: A Spanish lexicon of deverbal nominalizations

    No full text
    This paper describes a new lexical resource: Ancora-Nom, a Spanish lexicon of deverbal nominalizations. At present, it contains 1,655 lexical entries and 3,094 senses. Each sense has a denotation type associated, and the mapping of nominal complements with arguments and the corresponding theta roles is also annotated. A particular interest of this lexicon is that it has been automatically extracted from the annotated AnCora-Es corpus. AnCora-Nom was derived taking into account the information directly related to nominalizations, but also the morphological and syntactic-semantic information annotated in the corpus, such as WordNet synsets, the specifier type of the nominalization, and its morphological number (singular or plural)

    AnCora-Nom: A Spanish lexicon of deverbal nominalizations

    No full text
    This paper describes a new lexical resource: Ancora-Nom, a Spanish lexicon of deverbal nominalizations. At present, it contains 1,655 lexical entries and 3,094 senses. Each sense has a denotation type associated, and the mapping of nominal complements with arguments and the corresponding theta roles is also annotated. A particular interest of this lexicon is that it has been automatically extracted from the annotated AnCora-Es corpus. AnCora-Nom was derived taking into account the information directly related to nominalizations, but also the morphological and syntactic-semantic information annotated in the corpus, such as WordNet synsets, the specifier type of the nominalization, and its morphological number (singular or plural)

    Hacia un sistema de clasificación automática de sustantivos deverbales

    No full text
    Deverbal nominalizations constitute a rich source of semantic information. To have it recognized may be very useful for different NLP tasks. In this paper we present the nominal lexicon AnCora-Nom, which consists of 817 lexical entries of deverbal nouns, and a series of experiments based on machine-learning techniques. These experiments allow us to evaluate positively the consistency of annotated data in AnCora-Nom, and to detect the most relevant features for the denotative distinction between event and result nominalizations. Furthermore, with these experiments the foundations of an automatic classification system of the deverbal nominalizations according to their denotation are laid
    corecore